语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
基于自我注意力的变压器模型已显示出令人印象深刻的图像分类和对象检测结果,并且最近用于视频理解。受此成功的启发,我们研究了变压器网络在视频中的时间动作本地化的应用。为此,我们提出了ActionFormer,这是一个简单而强大的模型,可在不使用动作建议或依靠预定义的锚点窗口中识别其及时识别其类别并识别其类别。 ActionFormer将多尺度特征表示与局部自我发作相结合,并使用轻加权解码器对每个时刻进行分类并估算相应的动作边界。我们表明,这种精心策划的设计会在先前的工作中进行重大改进。如果没有铃铛和口哨声,ActionFormer在Thumos14上的TIOU = 0.5的地图达到了71.0%的地图,表现优于最佳先前模型的绝对百分比14.1。此外,ActionFormer在ActivityNet 1.3(平均地图36.6%)和Epic-Kitchens 100(+先前工作的平均地图+13.5%)上显示出很强的结果。我们的代码可从http://github.com/happyharrycn/actionformer_release获得。
translated by 谷歌翻译
高分辨率卫星图像已证明是可用于广泛的任务,包括衡量全球人口,当地经济生计和生物多样性,其中许多其他任务。不幸的是,高分辨率图像既不经常收集,购买昂贵,难以高效,有效地缩放这些下游任务在两次和空间。我们提出了一种新的条件像素综合模型,它使用丰富,低成本,低分辨率的图像,在位置和时间内产生准确的高分辨率图像。我们表明,我们的模型在钥匙下游任务 - 对象计数上达到了照片 - 现实的样本质量和竞争基线的竞争基线 - 特别是在地面上的条件正在快速变化的地理位置中。
translated by 谷歌翻译
During image editing, existing deep generative models tend to re-synthesize the entire output from scratch, including the unedited regions. This leads to a significant waste of computation, especially for minor editing operations. In this work, we present Spatially Sparse Inference (SSI), a general-purpose technique that selectively performs computation for edited regions and accelerates various generative models, including both conditional GANs and diffusion models. Our key observation is that users tend to make gradual changes to the input image. This motivates us to cache and reuse the feature maps of the original image. Given an edited image, we sparsely apply the convolutional filters to the edited regions while reusing the cached features for the unedited regions. Based on our algorithm, we further propose Sparse Incremental Generative Engine (SIGE) to convert the computation reduction to latency reduction on off-the-shelf hardware. With 1.2%-area edited regions, our method reduces the computation of DDIM by 7.5$\times$ and GauGAN by 18$\times$ while preserving the visual fidelity. With SIGE, we accelerate the speed of DDIM by 3.0x on RTX 3090 and 6.6$\times$ on Apple M1 Pro CPU, and GauGAN by 4.2$\times$ on RTX 3090 and 14$\times$ on Apple M1 Pro CPU.
translated by 谷歌翻译
Classifier-free guided diffusion models have recently been shown to be highly effective at high-resolution image generation, and they have been widely used in large-scale diffusion frameworks including DALLE-2, Stable Diffusion and Imagen. However, a downside of classifier-free guided diffusion models is that they are computationally expensive at inference time since they require evaluating two diffusion models, a class-conditional model and an unconditional model, tens to hundreds of times. To deal with this limitation, we propose an approach to distilling classifier-free guided diffusion models into models that are fast to sample from: Given a pre-trained classifier-free guided model, we first learn a single model to match the output of the combined conditional and unconditional models, and then we progressively distill that model to a diffusion model that requires much fewer sampling steps. For standard diffusion models trained on the pixel-space, our approach is able to generate images visually comparable to that of the original model using as few as 4 sampling steps on ImageNet 64x64 and CIFAR-10, achieving FID/IS scores comparable to that of the original model while being up to 256 times faster to sample from. For diffusion models trained on the latent-space (e.g., Stable Diffusion), our approach is able to generate high-fidelity images using as few as 1 to 4 denoising steps, accelerating inference by at least 10-fold compared to existing methods on ImageNet 256x256 and LAION datasets. We further demonstrate the effectiveness of our approach on text-guided image editing and inpainting, where our distilled model is able to generate high-quality results using as few as 2-4 denoising steps.
translated by 谷歌翻译
使用通过组成可逆层获得的地图进行标准化模型复杂概率分布。特殊的线性层(例如蒙版和1x1卷积)在现有体系结构中起着关键作用,因为它们在具有可拖动的Jacobians和倒置的同时增加表达能力。我们提出了一个基于蝴蝶层的新的可逆线性层家族,理论上捕获复杂的线性结构,包括排列和周期性,但可以有效地倒置。这种代表力是我们方法的关键优势,因为这些结构在许多现实世界数据集中很常见。根据我们的可逆蝴蝶层,我们构建了一个新的称为蝴蝶流的归一化流量模型。从经验上讲,我们证明蝴蝶不仅可以在MNIST,CIFAR-10和Imagenet 32​​x32等自然图像上实现强密度估计结果,而且还可以在结构化数据集中获得明显更好的对数可能性,例如Galaxy图像和Mimic-III患者群体 - - 同时,在记忆和计算方面比相关基线更有效。
translated by 谷歌翻译
大型视力模型的无监督预训练方法已显示出可以提高下游监督任务的性能。为卫星图像开发类似的技术带来了重要的机会,因为未标记的数据很丰富,并且固有的时间和多光谱结构提供了途径,以进一步改善现有的训练策略。在本文中,我们提出了Satmae,这是基于蒙面自动编码器(MAE)的时间或多光谱卫星图像的预训练框架。为了利用时间信息,我们包括一个时间嵌入以及跨时间独立掩盖图像贴片。此外,我们证明将多光谱数据编码为具有不同光谱位置编码的频段组是有益的。我们的方法在基准数据集(最高$ \ uparrow $ 7 \%)上的监督学习绩效方面都对先前最先前的技术产生了强大的改进,以及在下游遥感任务(包括土地)上的转移学习绩效封面分类(最多$ \ uparrow $ 14 \%)和语义细分。
translated by 谷歌翻译
常见的图像到图像翻译方法依赖于来自源和目标域的数据的联合培训。这可以防止培训过程保留域数据的隐私(例如,在联合环境中),并且通常意味着必须对新模型进行新的模型。我们提出了双扩散隐式桥(DDIB),这是一种基于扩散模型的图像翻译方法,它绕过域对训练。带有DDIBS的图像翻译依赖于对每个域独立训练的两个扩散模型,并且是一个两步的过程:DDIB首先获得具有源扩散模型的源图像的潜在编码,然后使用目标模型来解码此类编码,以构造目标模型。这两个步骤均通过ODE定义,因此该过程仅与ODE求解器的离散误差有关。从理论上讲,我们将DDIB解释为潜在源的串联,而潜在的靶向Schr \” Odinger Bridges是一种熵调节的最佳运输形式,以解释该方法的功效。我们在实验上都应用了ddibs,在合成和高级和高位上应用DDIB分辨率图像数据集,以在各种翻译任务中演示其实用性及其与现有最佳传输方法的连接。
translated by 谷歌翻译
为了接近不同的业务目标,在线流量塑造算法旨在改善目标项目的曝光,例如提高新商品的增长。通常,这些算法假设可以通过训练良好的转换速率预测模型访问每个用户项对的实用性。然而,对于真正的电子商务平台,有不可避免的因素阻止我们学习这种准确的模型。为了打破对实用程序的准确输入的沉重依赖,我们提出了一般的在线交通整理协议,用于在线电子商务应用程序。在我们的框架中,我们近似映射奖励得分的函数,这通常是影响排名结果的唯一方法,以对曝光和购买的数量来影响流量整形问题。具体地,我们通过在探索数据点的凸壳上构造的一类转印的线性函数近似上述功能。此外,我们将在线流量整形问题重构为线性编程,其中这些分段线性函数嵌入到目标和约束中。我们的算法可以简单地优化主要空间中的线性编程,并且其解决方案可以简单地应用于随机策略来满足所优化的目标和预期限制。最后,在线A / B测试显示我们所提出的算法稳定地优于先前的工业级流量整形算法。
translated by 谷歌翻译
高分辨率卫星图像中的对象检测是在许多环境和社会经济监测应用中的地面调查数据收集中的可扩展替代品。然而,由于购买图像和计算的高成本,对大型地理位置的对象检测仍然可能会昂贵。灵感来自传统调查数据收集策略,我们提出了一种通过抽样估计对象计数统计数据的方法。鉴于成本预算,我们的方法通过从学习的提案分布中抽样选择少量代表性区域。使用重要性采样,我们能够在处理仅与详尽的方法相比仅在图像的一小部分图像后准确估计对象计数。我们凭经验表明,拟议的框架在估计美国和非洲的建筑物数量,肯尼亚的汽车数量,在孟加拉国的砖窑和美国的游泳池中达到了强大的表现,同时需要少于0.01%的卫星图像彻底的方法。
translated by 谷歌翻译